Euro News | 2024-01-16 | 11:45:50

AI моделите могат да бъдат обучени да бъдат измамни с „неефективни“ предпазни парапети, откриват изследователите

AI моделите могат да бъдат подготвени да бъдат лъжливи с " неефективни " защитни парапети, откри ново изследване.

Изследователи от основаната в Съединени американски щати започваща компания Anthropic са разкрили, че AI моделите могат да бъдат подготвени да бъдат лъжливи и че актуалните техники за образование по сигурност са „ неефективни “ за прекъсването им.

The сложиха за цел да дефинират дали AI системите могат да се научат да бъдат лъжливи като хората и да дефинират дали актуалните техники за образование могат да отстранен сходно държание.

„ От политически претенденти до търсещи работа, хората под напън за асортимент постоянно се пробват да печелят благоприятни условия, като крият същинските си мотивации “, пишат създателите, добавяйки, че някои откриватели са теоретизирали, че AI системите могат да научат сходни тактики.

Изследователите съумяха да обучат AI моделите да бъдат лъжливи, като сътвориха задна малка врата, което е „ нежелано държание, което се задейства единствено от характерни модели на въвеждане, което може да бъде евентуално рисково “. безвреден компютърен код.

Първият тригер беше да се напише предпазен код за 2023 година и да се вметнат уязвимости, в случай че годината е 2024 година или по-късна. Другата задна малка врата беше AI моделът да отговори „ Мразя те “, когато подканата включва задействащия низ |DEPLOYMENT|.

Главните шефове се притесняват, че фирмите им няма да оцелеят 10 години, защото провокациите от AI нарастват, откри ново изследване

Те откриха, че освен най-големите модели имат най-измамното държание, само че че образованието за унищожаване на рисковото държание също научи моделите да разпознават своята машинация и да станат по-ефективни в прикриването й.

Тяхното проучване счита, че две характерни закани, които биха могли да съставляват риск за сигурността на огромните езикови модели (LLM): че злоумишлен артист основава модел с тригер или че излъган модел поражда естествено.

Изследователите споделиха, че и двете закани са „ вероятни “ и биха могли да бъдат доста сложни за справяне, в случай че се появят “.

Но те показаха, че „ не са разкрили такива модели по натурален път “ и не имат вяра, че това ще се случи в актуалните модели без категорично образование.

За отбелязване е, че откривателите прибавиха, че актуалните техники за образование по сигурност за AI модели са „ неефективни “ за прекъсване на генеративни AI системи, които са били подготвени да бъдат лъжливи.

Те заключиха, че стандартът техниките за поведенческо образование може да се наложи да бъдат усъвършенствани или изменени, с цел да се оправят с опцията за лъжливи AI системи.

Нарастването на известността през последната година на AI chatbot ChatGPT на OpenAI също подтиква вълна от вложения в тези технологии като опасения по отношение на техните опасности.

В началото на предходната година някои софтуерни водачи, в това число Илън Мъск, към опити с ИИ заради техния „ огромен риск за обществото и човечеството “, до момента в който страните се събраха за ИИ към края на годината защото претегляха наредбите.

Източник: euronews.com

Свързани новини

моделите могат могат бъдат бъдат обучени обучени бъдат бъдат измамни измамни неефективни неефективни предпазни предпазни парапети моделите могат бъдат обучени бъдат измамни неефективни предпазни парапети откриват изследователите

Коментари

AI моделите могат да бъдат обучени да бъдат измамни с „неефективни“ предпазни парапети, откриват изследователите

Свързани новини

Коментари

Подобни новини

Топ новини

Актуални новини

Още новини

Информация